\section{Bibliotecas OCR}
\label{sec:pesquisa_ocr}

\subsection{Introdução}
Uma das atividades do sistema {\it webscan} é fazer o reconhecimento de caracteres usando bibliotecas {\it open-source} de reconhecimento óptico de caracteres, ou mais conhecido pelo termo OCR (Optical Character Recognition). Foram levantadas algumas características das bibliotecas encontradas.

Um fator importante é o reconhecimento de caracteres presentes no português. É interessante que as heurísticas implementadas pelos sistemas pesquisados levem em consideração aspectos como caracteres com acentos agudos, circunflexos, grave ou até mesmo no uso da trema.

\subsection{Informações obtidas}
\label{sec:libs_ocr}

\begin{description*}
    \item[Nome:] GOCR ou JOCR
    \item[Site:] http://jocr.sourceforge.net
    \item[Licença:] GPL
    \item[Descrição:] Tem bom suporte ao idioma inglês, com poucos erros. Não há registro do uso dessa biblioteca com o idioma português.
\end{description*}

\begin{description*}
    \item[Nome:] Conjecture
    \item[Site:] http://www.corollarium.com/conjecture
    \item[Licença:] GPL-2
    \item[Descrição:] {\it Framework} C++ para desenvolvimento de sistemas de OCR, com suporte a módulos genéricos de reconhecimento. A biblioteca GOCR é implementado como módulo para essa {\it framework}. Contém os mesmos problemas da biblioteca GOCR: não há suporte a caracteres acentuados.
\end{description*}

\begin{description*}
    \item[Nome:] Tesseract-OCR
    \item[Site:] http://code.google.com/p/tesseract-ocr/
    \item[Licença:] Apache License 2.0
    \item[Descrição:] Biblioteca antigamente desenvolvida pela HP, atualmente esta sob licença Apache e é conhecida como a melhor biblioteca OCR {\it open-source} da atualidade. Há suporte ao idioma português brasileiro e pode ainda ser treinada para ser melhorada.
\end{description*}



